軟體開發學習資訊分享

課程特價中

什麼是網頁爬蟲？

假設你的老闆給了你一個任務，他希望你從一個網站上提取大約 1000 個產品，將資料結構化並儲存到資料庫中，你會手動複製貼上所有的產品細節，包括產品名稱、網址和價格？我可以想像你會工作幾天幾夜，但你不會完成這個任務，所以這就是網頁爬蟲的優勢。因此，網頁爬蟲，或網頁採集或網頁資料提取就像寫一個指令碼，可以在幾分鐘內自動從網站上提取資料！。

為什麼是 LXML 而不是 BeautifulSoup？

LXML 是一個輕量級的 HTML 解析器，即使是最流行的網頁抓取框架（Scrapy）也是建立在LXML之上的，BeautifulSoup 在開放給我們的功能數量上有點過剩，它有更多的功能可以使用，是的，沒錯然而，在Web Scraping中，大多數時候我們使用 XPath 和 CSS 選擇器來瀏覽和選擇要從HTML網頁（樹）中爬取的內容，所以沒有必要學習新的功能，也沒有必要浪費那麼多時間來熟悉 BeautifulSoup 的 API 和內部架構，此外，LXML在效能方面也比BeautifulSoup好得多。

https://softnshare.com/web-scraping-with-python-using-requests-lxml-splash/

Tags:

About author

not provided

軟體開發相關技術、新鮮事、知識分享

課程特價中什麼是網頁爬蟲？假設你的老闆給了你一個任務...

軟體開發學習資訊分享

About author

課程特價中

什麼是網頁爬蟲？

假設你的老闆給了你一個任務...